13.3 목표 조건부 계층적 강화학습 (Goal-Conditioned HRL)
- 13.3 목표 조건부 계층적 강화학습 (Goal-Conditioned HRL)
- 13.3.1 Feudal Networks 구조: 관리자(Manager)와 노동자(Worker) 아키텍처의 현대적 재해석
- 13.3.2 잠재 목표 공간(Latent Goal Space): 상위 레벨이 하위 레벨에 명령을 내리는 방식 (좌표 기반 vs 임베딩 기반)
- 13.3.3 HIRO (Hierarchical Reinforcement Learning with Off-Policy Correction): 오프폴리시 데이터를 효율적으로 활용하기 위한 목표 수정 기법